¿Es la diversidad clave para la manipulación robótica escalable?
Investigación revela que la diversidad de tareas es más crítica que la cantidad de demostraciones. Aprende a escalar datos robóticos eficazmente.
Investigación revela que la diversidad de tareas es más crítica que la cantidad de demostraciones. Aprende a escalar datos robóticos eficazmente.
Descubre cómo Octopus-8B logra autocorrección eficiente en VLMs mediante aumento de trayectorias, superando a otros modelos con un 1.0 de puntuación y menor tiempo de entrenamiento.
Optimiza agentes LLM de caja negra sin entrenarlos. Agentic Monte Carlo supera a GRPO. Aprende inferencia bayesiana.
Descubre cómo SHALA-LLM usa aprendizaje por refuerzo para gestionar etiquetas ambiguas en alineamiento de LLMs, mejorando precisión y acuerdo entre anotadores.
SA-AH-GRPO reduce la varianza un 3.6x y mejora la precisión en razonamiento matemático con descuento asimétrico por token. Resultados en GSM8K con Qwen.
MR.Q demuestra que las representaciones predictivas escalan el RL multitarea sin planificación, superando a modelos del mundo.
Descubre ADWM, un marco de evaluación offline que simula entornos interactivos para estimar el rendimiento de agentes LLM sin necesidad de ejecución en línea.
Descubre AsyncWebRL: un enfoque asíncrono que acelera el entrenamiento de agentes web visuales con RL multi-paso, logrando hasta 2.9x más rapidez y mejor rendimiento.
ECPO calibra el crédito de acciones intermedias en agentes LLM, mejorando el rendimiento en ALFWorld y WebShop hasta un 7% con solo 0.1% de sobrecarga.
Descubre cómo la regularización KL mejora el aprendizaje por refuerzo ante modelos incorrectos. Nuevas garantías teóricas para algoritmos robustos. ¡Lee más!
Descubre MDP-GRPO, un método que estabiliza GRPO bajo recompensas discretas, mejorando el cumplimiento de restricciones hasta un 5%. Ideal para IA confiable.
Descubre cómo MaxPO optimiza el post-entrenamiento de LLMs con una nueva línea base Leave-Two-Out que centra la ventaja y reduce la varianza del gradiente.
Descubre OrderGrad, un método unificado para optimizar objetivos de estadísticos de orden como VaR, CVaR y medias recortadas en aprendizaje por refuerzo. Ideal para tareas de riesgo y robustez.
Descubre cómo el principio de refinamiento dinámico de abstracciones mejora el aprendizaje por refuerzo, usando distorsión de tasa para lograr rendimiento óptimo con compresión.
Optimiza tácticas de córner con RL gráfico. Supera a métodos tradicionales en 3000+ jugadas de la Premier League.
AgentJet: marco enjambre para RL agentivo. Entrena agentes heterogéneos con tolerancia a fallos, edición en vivo y acelera 10x. Ideal para investigadores.
Marco TMEM: agentes IA auto-evolutivos con memoria paramétrica y LoRA. Aprenden de la experiencia, mejorando su comportamiento sin reinicios.
Descubre cómo Neetyabhas optimiza políticas públicas con incertidumbre y comportamiento. Un enfoque basado en IA.
Descubre cómo Sci-PRM, un modelo de recompensa consciente de herramientas, mejora la verificación científica en biología, química y física.
Descubre cómo la afinidad localizada mejora el aprendizaje por refuerzo para crear agentes de IA virtuosos en el juego Fog of Love. Resultados superiores.